Is that a cluster? A practical guide on how to avoid Type I error

Ambra Perugini, Enrico Toffalini, Tommaso Feraco, Filippo Gambarota, Massimiliano Pastore, Gianmarco Altoè

 XXXVI Congresso Nazionale Associazione Italiana di Psicologia  Sezione Psicologia Sperimentale 23 - 25 Settembre 2024 | Cagliari

Cos’è la cluster analisi?

La cluster analysis è un metodo (tipicamente) esplorativo che comprende una famiglia di metodi di unsupervised machine learning che raggruppano le osservazioni in gruppi più piccoli (clusters) che condividono proprietà simili.

Oggi ci concentreremo su due metodi di clustering:

Gaussian mixture models:

  • Approccio model based

  • Assunto di normalità

  • Stima parametri e covarianza tra clusters

K-means:

  • Approccio non parametrico

  • Non fa assunti sulle distribuzioni

  • Basato sulla distanza eculidea tra osservazioni

  • Necessaria ortogonalità tra variabili

Analisi esplorative o inferenza?

In ambito di profilazione nelle aziende viene spesso utilizzato il clustering per suddividere la popolazione in più sottogruppi.

Se però intendiamo trarre conclusioni sulla popolazione target e fare quindi inferenza occorre essere più cauti.

Potenza

La prima domanda che ci poniamo è sicuramente: Ho abbastanza potenza?

Dalmaijer et al. (2023) suggerisce un power adeguato anche per campioni piccoli se si hanno 30 indicatori indipendenti e ortogonali che condividono informazioni che contribuiscono a definire l’appartenenza ai clusters (d = .68 tra cluster).

Normalità

I dati psicologici sono raramente normali. La maggior parte di essi (questionari, test) sono il risultato di processi binomiali o multinomiali. Anche piccoli gradi di non-normalità dovrebbero essere sempre previsti.

Indipendenza

I dati psicologici sono raramente ortogonali. Molti mostrano piccole correlazioni e, per esempio, i dati cognitivi mostrano una sistematica “manifold positiva”.

Ghost clusters

Quando usiamo il k-means con variabili correlate troviamo cluster che non esistono e più partecipanti abbiamo, più è facile trovarli.

Quando usiamo il GMM con variabili asimmetriche: ci risiamo

Cosa fare?


Un primo step è controllare le distribuzioni dei nostri dati e l’ortogonalità delle variabili. Idealmente si dovrebbe poi procedere a valutare errore di primo e secondo tipo e power.

E come?

Simulazione dei dati. Per semplificare, abbiamo preparato una shiny app che lo fa per te.

https://psicostat.shinyapps.io/clustersimulation-demo/

E un tutorial step by step per scenari più complessi (con r):

From data

Power & Type I error

Parameters specification

Grazie!


Ambra Perugini

ambra.perugini\(@\)phd.unipd.it

https://psicostat.dpss.psy.unipd.it/people.html


Toffalini, E., Gambarota, F., Perugini, A., Girardi, P., Tobia, V., Altoè, G., … & Feraco, T. Clusters that are not there: An R tutorial and a Shiny app to quantify a priori inferential risks when using clustering methods. International journal of psychology: Journal international de psychologie.